जो चीज और को शक्तिशाली बनाती है, वह बिल्कुल एक ही चीज है: डेटा। GPT-3 डैल हमारे क्षेत्र में डेटा महत्वपूर्ण है, और हमारे मॉडल बेहद डेटा-भूखे हैं। ये बड़े मॉडल, या तो जीपीटी के लिए भाषा मॉडल या डेल के लिए छवि मॉडल, सभी को एक ही चीज़ की आवश्यकता होती है: बहुत अधिक डेटा। आपके पास जितना अधिक डेटा होगा, उतना ही बेहतर होगा। इसलिए आपको उन मॉडलों को बढ़ाने की जरूरत है, खासकर वास्तविक दुनिया के अनुप्रयोगों के लिए। बड़े मॉडल बेहतर करने के लिए बड़े डेटासेट का उपयोग तभी कर सकते हैं, जब डेटा उच्च गुणवत्ता का हो। वास्तविक दुनिया का प्रतिनिधित्व नहीं करने वाली छवियों को खिलाने से कोई फायदा नहीं होगा और यहां तक कि मॉडल की सामान्यीकरण की क्षमता भी खराब हो जाएगी। यह वह जगह है जहाँ डेटा-केंद्रित AI काम आता है ... वीडियो में और जानें: संदर्भ ►पूरा लेख पढ़ें: डेटा-केंद्रित एआई: कमजोर पर्यवेक्षण: प्रोग्रामेटिक लेबलिंग: डेटा-केंद्रित एआई के लिए संसाधनों की क्यूरेटेड सूची: स्नोर्कल के बारे में अधिक जानें: मॉडल-केंद्रित से डेटा-केंद्रित AI - एंड्रयू एनजी: सॉफ्टवेयर 2.0: पेपर 1: रैटनर, ए.जे., डी सा, सीएम, वू, एस., सेल्सम, डी. और रे, सी., 2016. डेटा प्रोग्रामिंग: जल्दी से बड़े प्रशिक्षण सेट बनाना। अग्रिमों तंत्रिका सूचना प्रसंस्करण प्रणालियों में, 29. पेपर 2: रैटनर, ए., बाख, एसएच, एहरेनबर्ग, एच., फ्राइज़, जे., वू, एस. और आरई, सी।, 2017, नवंबर। स्नोर्कल: कमजोर के साथ तेजी से प्रशिक्षण डेटा निर्माण पर्यवेक्षण। वीएलडीबी बंदोबस्ती की कार्यवाही में। अंतरराष्ट्रीय बहुत बड़े डेटा बेस पर सम्मेलन (खंड 11, संख्या 3, पृष्ठ 269)। एनआईएच पब्लिक पहुँच। पेपर 3: आरई, सी (2018)। सॉफ्टवेयर 2.0 और स्नोर्कल: बियॉन्ड हैंड-लेबल जानकारी। 24वें ACM SIGKDD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही नॉलेज डिस्कवरी एंड डेटा माइनिंग। ►माई न्यूज़लेटर (आपके ईमेल को साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/data-centric-ai/ https://snorkel.ai/data-centric-ai https://snorkel.ai/weak-supervision/ https://snorkel.ai/programmatic-labeling/ https://github.com/hazyresearch/data-centric-ai https://snorkel.ai/company/ https://youtu.be/06-AZXmwHjo https://hazyresearch.stanford.edu/blog/2020-02-28-software2 https://www.louisbouchard.ai/newsletter/ वीडियो प्रतिलेख 0:00 क्या gpt3 और दिल्ली को शक्तिशाली बनाता है? 0:03 बिल्कुल वही बात डेटा डेटा है 0:06 हमारे क्षेत्र में महत्वपूर्ण हैं और हमारे मॉडल हैं 0:08 अत्यधिक डेटा भूखे इन बड़े मॉडलों 0:11 जीपीटी या छवि के लिए या तो भाषा मॉडल 0:13 दिल्ली के लिए सभी मॉडलों को समान की आवश्यकता होती है 0:15 चीज़ 0:16 दुर्भाग्य से बहुत अधिक डेटा अधिक 0:19 डेटा आपके पास बेहतर है इसलिए आप 0:21 विशेष रूप से उन मॉडलों को बढ़ाने की जरूरत है 0:24 वास्तविक दुनिया के अनुप्रयोगों के लिए बड़ा 0:26 मॉडल बड़े डेटासेट का उपयोग कर सकते हैं 0:28 डेटा उच्च होने पर ही सुधार करें 0:30 गुणवत्ता वाले खिला चित्र जो नहीं करते हैं 0:32 वास्तविक दुनिया का प्रतिनिधित्व नहीं होगा 0:34 उपयोग करें और मॉडल की क्षमता को भी खराब करें 0:37 इसे सामान्य बनाने के लिए डेटा केंद्रित है 0:39 एआई प्ले डेटा सेंट्रिक एआई में भी आता है 0:43 सॉफ्टवेयर 2.0 के रूप में संदर्भित सिर्फ एक है 0:46 यह कहने का शानदार तरीका है कि हम अपना अनुकूलन करते हैं 0:48 मॉडल को अधिकतम करने के लिए डेटा 0:50 मॉडल-केंद्रित के बजाय प्रदर्शन 0:52 जहां आप सिर्फ मॉडल के ट्वीक करेंगे 0:54 निश्चित रूप से निश्चित डेटासेट पर पैरामीटर 0:57 सर्वश्रेष्ठ होने के लिए दोनों को करने की आवश्यकता है 0:59 परिणाम संभव है लेकिन डेटा बहुत दूर है 1:02 इस वीडियो में यहां बड़ा खिलाड़ी 1:04 स्नोर्कल के साथ साझेदारी मैं कवर करूंगा 1:06 डेटा केंद्रित एआई क्या है और कुछ की समीक्षा करें 1:09 क्षेत्र में बड़ी प्रगति आप करेंगे 1:11 जल्दी से समझें कि डेटा ऐसा क्यों है 1:13 मशीन लर्निंग में महत्वपूर्ण जो है 1:15 स्नोर्कल का मिशन . से एक उद्धरण लेते हुए 1:17 उनकी ब्लॉग पोस्ट नीचे टीमों से जुड़ी होगी 1:19 अक्सर नए मॉडल लिखने में समय बिताते हैं 1:21 उनकी समस्या को समझने के बजाय 1:23 और डेटा में इसकी अभिव्यक्ति अधिक गहराई से 1:26 एक नया मॉडल लिखना एक सुंदर है 1:28 की गंदगी से छिपने की शरण 1:30 वास्तविक समस्याओं को समझना और यह 1:33 इस वीडियो का उद्देश्य एक में मुकाबला करना है 1:36 वाक्य डेटा केंद्रित एआई का लक्ष्य है 1:38 हमारे डेटा से ज्ञान को एन्कोड करने के लिए 1:40 डेटा को अधिकतम करके मॉडल 1:42 गुणवत्ता और मॉडल का प्रदर्शन यह सब 1:45 2016 में स्टैनफोर्ड में एक पेपर के साथ शुरू हुआ 1:48 डेटा प्रोग्रामिंग कहा जाता है जो बड़ा बनाता है 1:51 प्रशिक्षण सेट जल्दी से शुरू कर रहा है a 1:54 प्रशिक्षण डेटा सेट को लेबल करने के लिए प्रतिमान 1:56 प्रोग्रामेटिक रूप से बजाय हाथ से 1:58 यह एक अनंत काल पहले ai . के संदर्भ में था 2:01 अनुसंधान युग जैसा कि आप सबसे अच्छी तरह जानते हैं 2:04 तिथि उपयोग के दृष्टिकोण पर्यवेक्षित 2:05 एक ऐसी प्रक्रिया सीखना जिसमें मॉडल प्रशिक्षित होते हैं 2:08 डेटा और लेबल पर और करना सीखें 2:10 डेटा दिए जाने पर लेबल को पुन: पेश करें 2:13 उदाहरण के लिए आप एक मॉडल को कई खिलाएंगे 2:15 उनके साथ बत्तख और बिल्लियों की छवियां 2:17 संबंधित लेबल और मॉडल से पूछें 2:20 पता करें कि तस्वीर में क्या है तो उपयोग करें 2:23 मॉडल को प्रशिक्षित करने के लिए वापस प्रचार 2:25 यदि आप हैं तो यह कितनी अच्छी तरह सफल होता है, इस पर आधारित 2:27 पीछे के प्रसार से अपरिचित i 2:29 वीडियो देखने के लिए रोकने के लिए आमंत्रित करें 2:31 मेरा एक मिनट का स्पष्टीकरण और वापसी 2:33 जहां आपने छोड़ा था क्योंकि डेटा सेट हैं 2:35 बड़ा और बड़ा होता जाता है 2:37 उन्हें क्यूरेट करना कठिन होता जा रहा है 2:39 और हानिकारक डेटा को हटाने की अनुमति देने के लिए 2:41 केवल प्रासंगिक डेटा पर ध्यान केंद्रित करने के लिए मॉडल जो आप 2:44 पता लगाने के लिए अपने मॉडल को प्रशिक्षित नहीं करना चाहता 2:46 एक बिल्ली जब यह एक बदमाश है तो वह समाप्त हो सकता है 2:48 बुरी तरह से जब मैं डेटा का उल्लेख करता हूं तो ध्यान रखें 2:51 कि यह किसी भी प्रकार का डेटा सारणीबद्ध हो सकता है 2:53 चित्र पाठ वीडियो आदि अब जो आप कर सकते हैं 2:57 किसी भी कार्य के लिए आसानी से एक मोडल डाउनलोड करें 2:59 डेटा सुधार में बदलाव और 3:01 अनुकूलन अपरिहार्य मोटर है 3:03 उपलब्धता हाल के डेटा का पैमाना 3:05 सेट और डेटा निर्भर सीडी मॉडल 3:08 हैं इसलिए इस तरह के एक प्रतिमान के लिए 3:10 लेबलिंग प्रशिक्षण डेटा सेट 3:12 प्रोग्रामेटिक रूप से आवश्यक हो जाता है 3:14 अब मुख्य समस्या होने के साथ आती है 3:17 हमारे डेटा के लिए लेबल जिन्हें रखना आसान है 3:19 बिल्लियों और कुत्तों के हजारों चित्र लेकिन 3:22 यह जानना बहुत कठिन है कि कौन सी छवियां 3:24 एक खोदा है और किन छवियों में एक बिल्ली है 3:26 और उनका सटीक होना और भी कठिन 3:28 विभाजन के लिए छवि में स्थान 3:31 उदाहरण के लिए कार्य 3:32 पहला पेपर एक डेटा पेश करता है 3:34 प्रोग्रामिंग ढांचा जहां उपयोगकर्ता 3:36 या तो एमएल इंजीनियर या डेटा साइंटिस्ट 3:38 कमजोर पर्यवेक्षण रणनीतियों को व्यक्त करता है: 3:41 एक जेनरेटर का उपयोग करके लेबलिंग फ़ंक्शन 3:43 मॉडल जो डेटा के सबसेट को लेबल करता है 3:46 और पाया कि डेटा प्रोग्रामिंग हो सकती है 3:48 गैर-विशेषज्ञों के लिए बनाने का एक आसान तरीका 3:51 प्रशिक्षण के दौरान मशीन लर्निंग मॉडल 3:53 डेटा सीमित है या संक्षेप में उपलब्ध नहीं है 3:56 वे दिखाते हैं कि बिना डेटा के कैसे सुधार किया जा सकता है 3:58 रखते हुए बहुत अतिरिक्त काम 4:00 मॉडल वही सुधार परिणाम जो है 4:03 अब एक स्पष्ट लेकिन आवश्यक कदम 4:05 पत्थर यह वास्तव में दिलचस्प है 4:07 इस क्षेत्र में फाउंडेशन पेपर और मूल्य 4:09 पढ़ा 4:10 दूसरा पेपर जिसे हम यहां कवर करते हैं, कहलाता है 4:12 स्नोर्कल रैपिड ट्रेनिंग डेटा क्रिएशन 4:15 कमजोर पर्यवेक्षण के साथ यह पेपर 4:17 से एक साल बाद भी प्रकाशित 4:19 स्टैनफोर्ड विश्वविद्यालय एक लचीला प्रस्तुत करता है 4:22 लेबलिंग लिखने के लिए इंटरफ़ेस परत 4:24 निरंतर अनुभव के आधार पर कार्य 4:27 इस विचार पर कि प्रशिक्षण डेटा है 4:28 तेजी से बड़ा और कठिन 4:30 मॉडल में अड़चन पैदा करने वाला लेबल 4:33 प्रदर्शन वे पेश करते हैं स्नोर्कल a 4:36 सिस्टम जो पिछले को लागू करता है 4:37 एंड-टू-एंड सिस्टम सिस्टम में पेपर 4:40 लोगों को ज्ञान विशेषज्ञों की अनुमति दी 4:42 जो डेटा को आसानी से समझ सके 4:44 लेबलिंग कार्यों को परिभाषित करें 4:46 इसके बजाय डेटा को स्वचालित रूप से लेबल करें 4:48 हाथ से एनोटेशन बिल्डिंग मॉडल बनाना 4:51 2.8 गुना तेज जबकि भी 4:54 a . द्वारा भविष्य कहनेवाला प्रदर्शन बढ़ाना 4:56 इसके बजाय फिर से 45.5 प्रतिशत का औसत 5:00 उपयोगकर्ताओं या ज्ञान को लेबल करने के लिए 5:03 विशेषज्ञ ये लेबलिंग फ़ंक्शन लिखते हैं 5:05 फ़ंक्शंस बस को अंतर्दृष्टि देते हैं 5:07 देखने के लिए पैटर्न पर मॉडल or 5:10 कुछ भी विशेषज्ञ वर्गीकृत करने के लिए उपयोग करेगा 5:12 मॉडल का पालन करने में मदद करने वाला डेटा 5:14 एक ही प्रक्रिया तो सिस्टम लागू होता है 5:17 नव लिखित लेबलिंग कार्य समाप्त 5:19 हमारा बिना लेबल वाला डेटा और सीखता है a 5:21 आउटपुट को संयोजित करने के लिए जनरेटिव मॉडल 5:24 संभाव्य लेबल में लेबल जो 5:26 फिर हमारे अंतिम गहरे को प्रशिक्षित करने के लिए उपयोग किया जाता है 5:29 तंत्रिका नेटवर्क स्नोर्कल यह सब करता है 5:32 स्वयं इस पूरी प्रक्रिया को सुगम बना रहे हैं 5:35 पहली बार के लिए 5:36 हमारा आखिरी पेपर भी स्टैनफोर्ड से 5:39 एक और साल बाद सॉफ्टवेयर पेश करता है 5:42 2.0 यह एक पेज का पेपर एक बार फिर है 5:45 उसी गहराई के साथ आगे बढ़ते हुए 5:47 डेटा केंद्रित दृष्टिकोण सीखना 5:49 प्रशिक्षण का उत्पादन करने के लिए लेबलिंग कार्य 5:51 बड़े लेबल रहित डेटा सेट के लिए लेबल और 5:54 हमारे अंतिम मॉडल को प्रशिक्षित करें जो है 5:56 विशाल इंटरनेट के लिए विशेष रूप से उपयोगी 5:59 स्क्रैप किए गए डेटा सेट जैसे कि उपयोग किया जाता है 6:01 Google एप्लिकेशन जैसे Google विज्ञापन 6:03 की कमी से निपटने के लिए जीमेल यूट्यूब आदि 6:06 हाथ से लेबल किया गया डेटा बेशक यह सही है 6:09 प्रगति का एक सिंहावलोकन और 6:10 डेटा केंद्रित ai और i . की दिशा 6:13 पढ़ने के लिए आपको पुरजोर आमंत्रित करते हैं 6:14 करने के लिए नीचे विवरण में जानकारी 6:16 डेटा केंद्रित ai का पूरा दृश्य है 6:19 यह कहाँ से आता है और कहाँ है 6:21 हेडिंग मैं स्नोर्कल को भी धन्यवाद देना चाहता हूं 6:24 इस वीडियो को प्रायोजित कर रहा हूं और मैं आपको आमंत्रित करता हूं 6:26 अधिक के लिए अपनी वेबसाइट देखने के लिए 6:28 जानकारी यदि आपने नहीं सुना है 6:30 स्नोर्कल इससे पहले कि आप अभी भी इस्तेमाल कर चुके हैं 6:32 जैसे कई उत्पादों में उनका दृष्टिकोण 6:35 यूट्यूब गूगल विज्ञापन जीमेल और अन्य बड़े 6:37 अनुप्रयोग 6:39 वीडियो देखने के लिए धन्यवाद 6:41 समाप्त [संगीत]